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摘 要 : [目的 /意义 ] BIW (anthracnose) 作为 油茶 生长 过 程 中 重要 的 病害 ， 其 严重 程度 的 精准 判定 对 于 精准 
施 药 和 科学 管理 具有 重大 意义 。 本 研究 提出 了 一 种 改进 YOLACT (You Only Look At CoefficienTs) 分 级 模型 Camel- 
lia-YOLACT， 旨 在 实现 对 油茶 叶片 炭 痊 病 感 染 严重 程度 的 自动 、 高 效 判定 。[ 方 法 ] 首先 在 YOLACT 主干 网 络 部 
分 使 用 Swin-Transformer 来 进行 特征 提取 。Transformer 架 构 的 自 注 意 力 机 制 拥有 全 局 感受 野 及 移 位 窗口 等 特性 ， 有 
效 地 增强 了 模型 的 特征 提取 能 力 ; 引入 加 权 双 向 特征 金字 塔 网 络 ， 融 合 不 同 尺 度 的 特征 信息 ， 加 强 模型 对 不 同 尺 
度 目 标的 检测 能 力 ， 提 高 模型 的 检测 精度 ; 在 激活 函数 的 选择 上 ， 采 用 非 线性 能 力 更 强 的 HardSwish 激活 函数 蔡 
换 原 模型 的 ReLu 激 活 函 数 。 由 于 HardSwish 在 负 值 区 域 不 是 完全 截断 ， 对 于 输入 数据 中 的 噪声 具有 更 高 的 鲁 棱 性 ， 
自然 环境 下 的 图 像 有 着 复杂 的 背景 和 前 景 信息 ，HardSwish 的 鲁 棒 性 有 助 于 模型 更 好 地 处 理 这 些 情况 ， 进 一 步 提升 
精度 。[ 结 果 和 讨论 ] 采用 迁移 学 习 方 式 在 油茶 炭 痊 病 感染 严重 程度 分 级 数据 集 上 进行 实验 验证 。 消 融 实 验 结果 表 
明 ， 本 研究 提出 的 Camellia-YOLACT 模 型 的 mAP;,, 为 86.8%， 较 改进 前 提升 5.7%; mAP, 为 78.3%， 较 改进 前 提升 
2.5%; mAR 为 91.6%， 较 改进 前 提升 7.9%。 对 比 实验 结果 表明 ，Camellia-YOLACT 在 精度 和 速度 方面 表现 均 好 于 
SOLO (Segmenting Objects by Locations) ， 与 Mask R-CNN 算法 相 比 ， 其 检测 速度 提升 了 2 倍 。 在 室外 的 36 组 分 级 
实验 中 进一步 验证 了 Camellia-YOLACT 模 型 的 性 能 ， 其 对 油茶 炭 痊 病 严重 程度 的 分 级 正确 率 达 到 了 94.4%, 下 值 
平均 绝对 误差 为 1.09%。[ 结 论 ] 本 研究 提出 的 Camellia-YOLACT 模 型 在 油茶 叶片 和 痰 阁 病 病 斑 分 制 上 具有 较 高 的 
精度 ， 能 够 实现 对 油茶 炭 痊 病 严重 程度 的 自动 分 级 ,为 油茶 病害 的 精准 防治 提供 技术 支持 ， 进 一 步 推动 油茶 炭 痊 
病 诊 断 的 自动 化 和 智能 化 。 
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0 引 言 帮助 农民 采取 针对 性 的 治疗 措施 和 灵活 的 农药 用 量 

油茶 是 世界 四 大 木 本 油料 植物 之 _， 主 要 分 布 策略， 高效、 精准 地 量化 油茶 炭 冶 病 的 严重 程度 非 
在 中 国 南方 各 省 (区 ) (1) 。 油茶 病害 是 导致 茶 油 品 常 必 要 。 传统 的 油茶 炭 阁 病 严重 程度 评估 主要 依靠 
质 下 降 和 农民 经 济 损失 的 主要 原因 之 一 。 其 中 油茶 ”有 经 验 的 生产 者 或 专业 植 保 人 员 在 茶园 人 工 逐 个 观 
BOE (anthracnose) 是 油茶 林 非 常 普 遍 旦 危害 最 ” 察 叶 片 病 班 ， 费 时 费力 且 存 在 滞后 性 。 近 些 年 ， 计 
严重 的 病害 ， 每 年 由 于 油茶 迪 冶 病 而 造成 油茶 籽 实 。，” 算 机 视觉 和 深度 学 习 在 诊断 植物 病害 方面 取得 了 广 
减产 10%~30%, HIG X Ir 40%~50% >. AT 泛 应 用 ， 为 油茶 炭 痊 病 严 重 程 度 分 级 提供 了 新 的 解 


收 稿 日 期 : 2024-02-02 

基金 项 目 : 江西 省 科技 计划 项 目 (20141BBF60057); 江西 省 林业 厅 油 茶 研 究 专项 (YCYJZX2023221) 
作者 简介 : 聂 刚刚 ， 研 究 方向 为 机 器 视觉 。E-mail: nieganggang1997@163.com 

“通信 作者 : E, WE, 教授， 研究 方向 为 现代 农业 装备 、 机 器 视觉 。E-mail: rhh58@sohu.com 
copyright©2024 by the authors 


Vol. 6, No. 3 SEMA SE BEE YOLACT HIAS HY A oe TEL Ip ERS FB EE PR i 139 
决 方案 。 模型 部 署 在 无 人 机 上 实现 了 对 植物 病害 程度 的 自动 


传统 的 图 像 分 割 算 法 如 阔 值 算法 、 分 水 岭 算 法 
和 GraphCut 等 算法 依赖 人 工 设计 特征 ,需要 图 像 
颜色 、 灰 度 、 形 状 和 纹理 等 低层 次 特征 与 形态 学 操 
作 相 结合 分 割 出 病 斑 ， 分 割 精度 不 高 ， 泛 化 能 力 较 
差 ， 对 于 复杂 背景 图 像 适应 性 较 差 。 而 基于 深度 学 
习 方 法 的 分 割 算法 则 能 馆 自 动 从 原始 图 像 中 学 习 和 
提取 高 级 别 的 特征 表示 ， 有 效 地 分 割 出 图 像 中 目标 
对 象 的 不 同 区 域 ， 即 便 是 在 复杂 的 背景 下 也 能 保持 
较 好 的 分 割 性 能 ， 尤 其 适用 于 对 病害 分 布 不 均匀 、 
形态 多 变 的 油茶 叶 部 病害 图 像 的 分 割 与 严重 程度 
分 级 。 

基于 深度 学 习 的 植物 病害 严重 程度 评估 的 方法 
主要 分 为 基于 分 类 的 分 级 方法 和 基于 分 割 的 分 级 方 
法 。 基 于 分 类 的 分 级 方法 通常 将 植物 的 病害 程度 划 
分 为 前 期 、 中 期 及 后 期 等 几 个 区 间 ， 将 病害 程度 分 
级 问题 转化 为 图 像 分 类 问题 “。Prabhakar 等 将 
公开 数据 集 PlantVillage 中 的 番茄 叶 部 图 像 划 分 为 健 
康 、 轻 度 、 中 度 和 重度 ， 使 用 ResNet101 模型 进行 
训练 ， 该 模型 对 番茄 叶 部 病害 的 分 级 准确 率 达 到 
94.6%。 Tendang 和 Chamnongthai' 训练 了 一 个 深 
度 卷 积 神经 网 络 模型 ， 该 模型 识别 水 稻 叶 部 病害 早 
期 、 中 期 和 晚期 的 准确 率 分 别 为 96.40% . 96.40% 
和 96.56%。 万 军 杰 等 ”采用 迁移 学 习 技 术 与 
GoogLeNet 模 型 对 6 种 果园 作物 的 25 类 病虫害 样本 


量化 。Goncalves 等 训练 了 六 种 语义 分 割 网 络 来 
对 大 豆 锈 病 和 小 麦 标 褐色 斑 病 的 病变 叶片 进行 分 割 
对 比 实 验 ， 结 果 表 明 特 征 金字 塔 网 络 (Feature Pyr- 
amid Networks, FPN) 、U-Net 和 DeepLabv3+ 表 现 优 
异 ， 将 病 斑 分 割 结果 用 于 衡量 病害 严重 程度 获得 了 
较 好 效果 。 茹 佳 棋 等 ” 提出 了 一 种 基于 改进 UN- 
et++ 的 葡萄 黑 腐 病 病 斑 分 割 模型 ， 使 用 自 适应 软 阔 
值 细 化 病 斑 边缘 ， 通 过 多 尺度 特征 融合 聚合 低层 特 
征 图 高 分 辨 率 信息 恢复 小 病 斑 特征 ， 该 模型 分 级 准 
确 率 达 97.41%。 邓 朝 等 ”采用 Mask R-CNN 
(Mask Region-based Convolutional Neural Network ) 
算法 对 马铃薯 叶片 晚 疫病 进行 量化 评价 ， 准 确 率 为 
87.5% 。 以 上 研究 表明 相 比 于 传统 的 图 像 处 理 方法 
和 基于 分 类 网 络 的 方法 ， 使 用 分 割 网 络 进行 病害 程 
度 分 级 有 着 更 好 的 效果 ， 然 而 以 上 研究 大 多 基于 语 
义 分 割 网 络 UNet 和 二 阶段 实例 分 割 网 络 Mask R- 
CNN 开展 ， 由 于 网 络 架 构 原 因 ， 存 在 着 模型 参数 
量 大 ， 推 理 速 度 较 慢 等 缺点 ， 难 以 满足 在 茶园 中 的 
实时 应 用 。 因 此 ， 研 究 一 种 更 高 效 的 自然 环境 下 油 
茶叶 部 病害 严重 程度 分 级 的 方法 十 分 有 必要 。 

本 研究 以 自然 环境 下 油茶 痰 首 病 为 研究 对 象 ， 
提出 一 种 基于 改进 YOLACT (You Only Look At 
CoefficienTs ) FY YH AS He JH iki OY Fill HE AY Camellia- 
YOLACT， 并 实现 炭 痊 病 严 重 程 度 分 级 的 方法 。 在 


进行 识别 与 危害 等 级 分 级 研究 ， 危 害 程度 分 级 精度 
达到 92.78%。LIU 等 中 提出 了 一 种 改进 的 炭 痊 病 、 
褐 斑 病 、 螨 虫 、 黑 腐 病 、 霜 霉 病 、 叶 枯 病 诊断 模型 
DICNN， 整 体 准 确 率 为 97.22%。 与 GoogLeNet 和 
ResNet-34 相 比 ， 识 别 准确 率 分 别提 高 了 2.97% 和 
2.55%， 为 深度 学 习 在 病虫害 诊断 领域 的 应 用 奠定 
了 理论 基础 。 

基于 分 类 的 分 级 方法 受制 于 分 类 网 络 模型 的 局 
限 性 ， 需 要 大 量 的 样本 图 像 供 模型 学 习 不 同 分 级 下 
的 病害 特征 ， 不 同类 别 间 分 界 阔 值 模糊 难以 量化 ， 
而 且 对 数据 集 的 病害 级 别 标注 的 准确 率 有 很 高 的 要 
求 ， 也 不 能 根据 诊断 标准 的 变化 调整 病害 程度 的 诊 
断 结果 ， 实 际 应 用 价值 有 限 。 

相对 于 基于 分 类 的 方法 ， 基 于 分 割 的 分 级 方法 
不 需要 预先 设 定 固定 的 病害 级 别 区 间 ， 而 是 通过 病 
斑 面 积 占 叶片 总 面积 的 比例 来 定量 评价 病害 的 严重 
程度 ， 这 种 方法 更 为 客观 和 连续 ， 能 够 捕捉 到 病害 
细微 程度 的 变化 中。Garg 等 "使 用 语义 分 割 网 络 ， 
同时 分 割 单个 叶片 实例 和 相应 的 染病 区 域 ， 并 将 该 


单 阶段 实例 分 制 网 络 YOLACT 基础 上 ，3 引 入 Swin- 
Transformer "模型 作为 主干 特征 提取 网 络 ， 使 用 
BiFPN |) 作为 特征 融合 网 络 ， 更 好 地 融合 不 同 尺 
度 的 特征 信息 ， 同 时 对 激活 函数 进行 优化 ， 以 提高 
模型 准确 性 与 实时 性 ， 实 现 对 叶片 和 病 斑 区 域 的 精 
准 分 割 ， 最 后 按照 分 割 的 病 斑 面 积 占 分 割 的 叶片 面 
积 比 例 进行 病害 严重 程度 分 级 ， 该 方法 为 油茶 炭 痊 
病 严 重 程度 分 级 与 灵活 施 药 提 供 技术 支持 。 


1 材料 与 方法 
1.1 实验 数据 


1.1.1 图 像 数据 采集 

油茶 炭 这 病 图 像 采 集 于 江西 省 林业 科学 院 国家 
油茶 良种 基地 (28°74'N, 115°82E), RÆIH AH 
2023 年 3 月 至 4 月 ， 为 贴近 实际 油茶 园 复杂 环境 下 
的 应 用 ， 采 集 时 保留 背景 噪声 ， 包 含 不 同 光 照 条 件 
和 不 同 病 害 程度 图 像样 本 ， 采 集 设 备 为 华为 no- 
va6se 智能 手机 ， 图 像 分 辩 率 像素 为 3 000X3 000。 
人 工 检查 后 剔除 模糊 图 像 、 叶 部 遭 到 遮挡 或 截断 的 
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图 像 以 及 相似 度 过 高 的 图 像 ， 经 筛选 后 最 终 得 到 有 
效 数据 图 像 共 计 975 张 。 为 提高 模型 训练 效率 ， 将 
原始 图 像 像 素 统一 调整 为 344X544， 使 用 Labelme 
软件 对 图 像 中 的 叶片 和 病 斑 区 域 进行 标注 ， 结 果 如 
图 1 所 示 ， 最 终 构建 油茶 炭 这 病 严 重 程度 分 级 数 
据 集 。 


a. 原 始 图 像 b. 标 注 后 图 像 
图 1 油茶 炭 症 病 数 据 集 Labelme 标 注 样 例 
Fig. 1 Samples of Camellia oleifera leaf anthracnose dataset 


label by Labelme 


1.1.2 ”图像 数据 增强 

为 了 避免 训练 过 程 中 出 现 过 拟 合 现象 ， 提 高 模 
型 鲁 棒 性 和 泛 化 能 力 ， 采 用 图 像 数 据 增 强 方式 对 数 
据 集 进行 扩充 。 数 据 增强 策略 分 别 为 水 平 翻转 、 垂 
直 翻 转 、 随 机 亮度 、 随 机 对 比 度 、 高 斯 噪声 ， 增 
强 后 样本 如 图 2 所 示 ， 最终 样 本 数 共计 5 850 张 ， 
按照 7 : 2 : 1 比例 划分 为 训练 集 4 095 张 、 验 证 集 
1 170 张 和 测试 集 585 张 。 
1.1.3 油茶 炭 冶 病 严 重 程 度 分 级 

植物 叶 部 病害 的 严重 程度 通常 用 病 斑 区 域 面积 
与 叶片 总 面积 的 百分比 天 来 衡量 。 使 用 分 割 网 络 可 
以 得 到 病 斑 区 域 和 叶片 区 域 各 自 的 掩 膜 图 ， 然 后 分 
别 计算 病 斑 区 域 和 叶片 区 域 的 面积 ， 二 者 之 比 即 可 
评估 油茶 炭 痊 病 的 严重 程度 ， 病 害 严 重 程 度 计 算 如 
公式 (1) 所 示 。 


K= S isese x 100% (1) 
Sio 
式 中 : So 为 病 斑 区 域 面积 ，pixel; Sia DEF 
片 总 面积 ，pixel; 玉 为 病 斑 占 叶片 比例 。 


参照 DB34/T 3863 一 2021 《 茶 炭 盖 病 测报 调查 
与 防治 技术 规程 》 中 茶 炭 痊 病 严重 度 分 级 标准 具 


d. 随机 亮度 e. 随机 对 比 度 
图 2 油茶 崇 关 病 数 据 集 扩 充 示 例 


Fig.2 Example of Camellia oleifera leaf anthracnose 


f. 高 斯 噪声 


dataset expansion 


体 分 级 ， 按 照 病 斑 占 叶片 面积 的 比例 分 为 5 级 ， 如 
表 1 所 示 。 
表 1 油茶 炭 关 病 严重 程度 分 级 标准 
Table 1 Classification standard for the degree of 


Camellia oleifera leaf anthracnose 


严重 程度 分 级 分 级 标准 
0 级 无 病 斑 
1 级 K<25% 
2 级 25%< K<50% 
3 级 50%< K<75% 
4 级 K >75% 


TE: KIMARA FLERE PL 
1.2 YOLACT 的 分 割 模 型 改进 


传统 的 实例 分 割 模型 如 Mask R-CNN "为 二 阶 
段 模型 ， 通 常 先 检测 后 分 制 ， 即 先 通过 目标 检测 方 
法 找 出 实例 区 域 ， 再 在 边界 框 内 进行 语义 分 制 ， 最 
后 每 个 分 割 结果 作为 不 同 的 实例 输出 ， 该 方法 检测 
和 分 割 整体 耗 时 过 长 ， 难 以 实现 实时 检测 ， 实 用 性 
不 足 。YOLACT ”是 一 个 单 阶段 的 用 于 实时 实例 
分 割 的 模型 ， 同 时 进行 检测 与 分 割 ， 在 速度 上 表现 
优异 。 

YOLACT 网 络 结构 主要 由 特征 提取 主干 网 络 
(Feature Backbone) 、 特 征 金 字 塔 网 络 (Feature 
Pyramid Net, FPN) 、 原 型 生成 分 文 (Protonet) VW 
及 检测 头 分 支 (Prediction Head) 组 成 。 其 中 原型 
生成 分 支 用 来 生成 原型 掩 膜 (Prototype Mask), ， 检 
测 头 分 支 用 来 预测 每 个 实例 的 掩 膜 系 数 (Mask Co- 
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efficients ) ， 两 个 分 支 并 行 执行 ， 最 后 将 原型 掩 膜 和 
掩 膜 系 数 线性 组 合生 成 实例 掩 膜 。 YOLACT 模 型 结 
构 轻 量化 ， 推 理 速度 快 ， 模 型 参数 量 少 ， 但 存在 精 
度 较 差 的 问题 。 为 在 保证 检测 速度 的 前 提 下 提高 对 
油茶 炭 痊 病 叶 部 区 域 的 分 割 精 度 ， 对 YOLACT 模 
型 进行 改进 。 首 先 将 特征 提取 主干 网 络 蔡 换 为 窗口 
自 注意 力 网 络 Swin-Transformer， 利 用 自 注意 力 机 
制 来 捕获 全 局 的 上 下 文 信息 ， 提 升 模型 的 特征 提取 


Swin-Transformer 


Input 


Protonet x 


Conv3X3  Conv3 x3 Conv3 x3 


2X Upsample 


入 一 二 二 二 一 一 一 二 一 一 一 一 二 


能 力 。 然 后 使 用 特征 融合 效果 更 优 的 加 权 双 向 特征 
金字 塔 网 络 (Bidirectional Feature Pyramid Net- 
work, BiFPN) 来 融合 不 同 尺 度 的 特征 信息 ， 提 高 
检测 精度 。 最 后 将 原型 生成 分 支 和 检测 头 中 的 Re- 
Lu 激活 函数 替换 为 HardSwish 激 活 函 数 提升 模型 表 
达能 力 。 改 进 后 的 模型 为 Camellia-YOLACT， 结 构 
如 图 3 所 示 。 


z 
/Conv3 X3 


Output 


Conv3X3 Conv1X1 


7 


二 二 一 二 二 一 一 一 二 二 一 呈 


图 3 Camellia-YOLACT 模型 结构 
Fig.3 Structure ofthe Camellia-YOLACT model 


1.2.1 特征 提取 主干 网 络 Swin-Transformer 
原始 的 YOLACT 模型 采用 ResNet50 ”作为 特 
征 提取 主干 网 络 ， 由 于 卷 积 神经 网 络 (Convolu- 
tional Neural Networks, CNN) 仅 关注 小 范围 的 局 部 
特征 ， 全 局 特征 提取 能 力 差 。 使 用 Swin-Transform- 
er 作为 特征 提取 主干 网 络 ， 可 以 捕获 全 局 和 局 部 上 
下 文 信息 ， 扩 大 感受 野 ， 增 强 网 络 的 特征 提取 能 
力 。 因 此 ， 引 入 与 ResNet50 复杂 度 相 当 的 Swin-T 
版 本 作为 YOLACT 的 主干 网 络 。Swin-Transformer 
模型 架构 如 图 4 所 示 ， 使 用 了 层次 化 构建 方式 ， 构 
建 了 4 个 Stage， 每 个 Stage 都 对 特征 图 进行 下 采样 
操作 进而 得 到 多 尺度 的 特征 图 。Swin-Transformer 
首先 会 使 用 4X4 的 窗口 对 输入 图 像 进 行 图 块 分 割 
(Patch Partition) ， 之 后 沿 通道 方向 将 分 割 的 图 块 进 
行 展 平 ， 接 着 在 Stagel 中 利用 线性 航 人 和 人 (Linear 
Embeding) 来 调整 向 量 维度 ， 随 后 进入 Swin Trans- 
former 模 块 进行 自 注 意 力 计算 提取 图 像 特征 。 图 块 
合并 (Patch Merging) 将 邻近 图 块 拼合 在 一 起 完成 
下 采样 ， 此 时 图 像 通道 数 翻 倍 ， 宽 高 减 半 ， 实 现 了 
类 似 于 CNN 中 的 池 化 操作 。 后 续 重 复 操 作 ， 数 据 


依次 送 入 Stage2、Stage3 和 Stage4， 最 终 实现 多 尺 


度 的 特征 提取 。 


x2 54 ree X65 x2 


图 4 Swin-Transformer 模型 架构 
Fig.4 Structure of Swin-Transformer 
Swin Transformer 模块 主要 由 多 头 自 注意 力 
(Multi-head Self-Attention, MSA) 和 多 层 感 知 机 
(Multi Layer Perceptron, MLP) 组 成 ， 在 两 个 连续 


的 Swin Transformer 模块 中 首先 使 用 了 窗口 多 头 自 
注意 力 (Windows Multi-head Self-Attention, W- 
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MSA) 将 图 块 划分 为 若干 窗口 ， 仅 在 每 个 窗口 内 进 
行 自 注意 力 计 算 ，W-MSA 结构 如 图 5a 所 示 。 接 着 
使 用 移 位 窗口 多 头 自 注意 力 (Shifted Window 
Multi-head Self Attention, SW-MSA) 以 实现 不 同窗 
口 间 的 全 局 信息 交互 ， 结 果 如 图 5$b 所 示 。 


b. SW-MSA 
图 5 W-MSA 和 SW-MSA 划分 图 像 块 示意 图 
Fig.5 Schematic diagram of W-MSA and SW-MSA divided 


image blocks 


1.2.2 ”特征 融合 网 络 改进 

深层 特征 图 具有 和 较 强 的 语义 信息 ， 但 分 状 率 
低 ， 细 节 感 知 能 力 差 ， 适 合 大 目标 检测 。 浅 层 特征 
图 感受 野 小 ， 包 含 更 多 位 置 、 信 息 细节 ， 且 几何 表 
征 能 力 强 ,适合 小 目标 检测 你。YOLACT 使 用 的 
FPN 网 络 2 仅 包 含 一 条 自 顶 向 下 的 路 径 ， 用 来 将 
浅 层 特征 传递 到 深层 ， 如 图 6a 所 示 。 该 算法 侧重 考 
虑 深层 特征 对 结果 的 影响 ， 对 浅 层 特征 的 利用 不 充 
分 ， 甚 至 可 能 导致 信息 的 丢失 。BiFPN $ FPN 而 
， 采 用 了 自 顶 向 下 和 自 底 向 上 双向 路 径 ， 将 主干 
网 络 中 不 同 尺 度 的 特征 直接 与 自 底 向 上 路 径 中 的 对 
应 尺寸 的 特征 融合 ， 实 现 跨 尺度 连接 ， 能 够 保留 更 
多 浅 层 特征 信息 ， 并 在 相同 尺度 的 特征 之 间 建 立 横 
向 连接 ， 以 减轻 由 于 网 络 层次 过 多 而 导致 的 特征 信 
息 丢 失 问题 ， 提 高 检测 精度 。BiFPN 结构 如 图 6b 
所 示 。 


zl 


Vol. 6, No. 3 


区 b. BiFPN 结构 图 
图 6 FPN 5 BiFPN 结构 图 


Fig. 6 Structure diagrams of FPN and BiFPN 


12.3 激活 函数 优化 

激活 函数 能 够 使 神经 网 络 学 习 和 通 近 更 为 复杂 
的 非 线 性 函数 ， 加 强 了 卷 积 神经 网 络 对 提取 特征 的 
表达 22。 本 研究 将 原 有 的 ReLu 激 活 函 数 奉 换 为 在 
速度 和 精度 等 方面 表现 更 优 的 HardSwish 激活 函数 ， 
表达 如 公式 (2) 所 示 。 


0 x<-3 

HardSwish = {* eG (2) 
x(x +3) ; 
Ea otherwise 


函数 图 像 如 图 7 所 示 ， 在 x>0 的 部 分 ，ReLu 是 
线性 的 ， 而 HardSwish 曲线 更 为 平滑 ， 在 负 值 时 仍 
存在 较 小 梯度 流 ， 这 使 得 训练 更 加 容易 收敛 。 


— HardSwish 


本 y) 0 2 4 
x 


a. HardSwish 


b. ReLu 


图 7 网 络 非 线性 研究 ReLu 和 HardSwish 函数 对 比 
Fig.7 Comparison of ReLu and HardSwish functions in net- 


work nonlinearity research 
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2 实验 与 结果 分 析 
2.1 实验 环境 


实验 运行 环境 为 Windows10 操 作 系统 ， 搭 载 主 
频 2.9 GHz 的 Intel i5-9400F 处 理 器 ， 图 形 处 理 咒 为 
NVIDIA RTX 3070Ti 8 GB ， 内 存 32 GB, XH Py- 
torch 1.12.1 深度 学 习 框架 ，CUDA 版 本 为 11.3。 为 
加 快 模型 训练 速度 ， 特 征 提 取 主 干 网 络 部 分 均 加 载 
在 InageNet-IK 上 预 训练 的 权重 。 训 练 过 程 采 用 随 
机 梯度 下 降 (Stochastic Gradient Descent, SGD) fi 
化 器 ， 批 次 大 小 设置 为 8， 训 练 轮 次 Epoch X 300, 
动量 参数 设置 为 0.9， 初 始 学 习 率 为 2e-3， 学 习 率 
衰减 策略 选择 余弦 退火 策略 ， 权 重 衰减 率 为 Se-4。 
2.2 评价 指标 

本 人 研究 构建 的 油茶 炭 痊 病 数 据 集 标注 采用 MS 
COCO 标准 格式 ， 采 用 平均 精确 率 均 值 (mean Av- 
erage Precision, mAP) 和 平均 召回 紊 均值 (mean 
Average Recall, mAR) 作为 实例 分 割 掩 模 的 评价 指 
标 ， 采 用 平均 检测 时 间 (td) 评价 模型 性 能 。 

mAP 指 所 有 类 别 AP 的 平均 值 ， 用 来 衡量 多 类 
别 目标 检测 效果 。 在 实例 分 割 任务 中 ， 模 型 需要 识 
别 并 分 割 出 图 像 中 的 不 同 对 象 实例 ， 因 此 需要 对 每 
个 类 别 的 分 制 结 果 进 行 精确 评估 。mAP 通 过 计算 每 
个 类 别 的 AP， 并 取 其 平均 值 ， 能 够 综合 评估 模型 
在 各 类 别 上 的 性 能 ， 从 而 更 全 面 地 反映 模型 的 分 割 
能 力 。mAP 计 算 方 法 如 公式 (3) 所 示 。mAR 指 所 
有 类 别 AR 的 平均 值 ， 用 来 衡量 多 类 别 目标 检测 中 
模型 找 回 所 有 相关 实例 的 能 力 。 在 实例 分 割 任务 
中 ， 模 型 不 仅 需 要 准确 分 割 出 对 象 ， 还 需要 确保 能 
够 找到 并 分 割 出 图 像 中 的 所 有 相关 对 象 实 例 。 
此 ，mAR 作为 评价 指标 ， 能 够 帮助 评估 模型 在 这 
方面 的 能 力 ， 确 保 模型 能 够 尽 可 能 地 找到 并 分 割 出 
所 有 的 对 象 实例 。mAR 计算 方法 如 公式 (4) 所 
示 。td 直接 反映 了 模型 处 理 图 像 的 速度 ， 较 短 的 检 
测 时 间 意 味 着 模型 能 够 更 高 效 地 完成 任务 。 
Xia AP, 


i=l 


C 


(3) 


(4) 


式 中 : C 表 示 类 别 数 ; AP 表示 平均 精确 
K, w; AR 表示 平均 召回 率 ，%。 

本 人 研究 使 用 的 mAP 标准 主要 为 mAP; 与 
mAP,。mAP,. 表 示 交 并 比 (Intersection over Union, 


IoU) 净值 为 0.75 时 的 平均 精确 率 均 值 ; mAP,, 表 


示 IoU 阅 值 区 间 为 0.5~0.95， 步 长 为 0.05 下 的 平均 
精确 率 均值 。 其 中 IoU 表示 预测 框 和 真实 框 的 重合 
程度 ， 用 于 衡量 物体 检测 结果 与 真实 值 匹配 的 效 
果 。IoU 计 算 方 法 如 公式 (5) 所 示 。 


AQB 
BUS IJA (5) 
式 中 : 4 表示 预测 框 面 积 ，pixel; BRIAK 
框 面积 ，pixel。 


2.3 消融 实验 

改进 后 的 YOLACT 模 型 使 用 Swin-Transformer 
作为 特征 提取 主干 网 络 ， 引 入 BiFPN 实 现 双 问 特征 
融合 ， 采 用 HardSwish 激 活 函 数 增强 网 络 非 线 性 能 
力 。 为 评估 各 项 改进 策略 的 有 效 性 ， 在 划分 的 测试 
集 上 保持 相同 实验 条 件 进 行 消融 实验 ， 结 果 如 表 2 
所 示 。 


表 2 改进 的 YOLACT 算 法 消融 实验 结果 
Table 2 Results of ablation experiments with the improved 


YOLACT 


编号 ”主干 网 络 


BiFPN HardSwish mAP,;/% mAP,/% mAR/% 


0 ResNet50 x x 81.1 758 87 
1 Swin-T x x 86.7 78.0 912 
2 Swin-T v x 86.5 78.1 913 
3 Swin-T v v 86.8 78.3 91.6 


TE: x 表 示 不 使 用 该 项 改进 因素 ; V 表示 使 用 该 项 改进 因素 。 


由 表 2 可 知 ， 模 型 0 为 原 YOLACT 模 型 ， 作 为 
基线 模型 。 模 型 1 使 用 Swin-Transformer 作为 特征 
提取 主干 网 络 mAP, mAP, 和 mAR 分 别 为 
86.7% 、78.0% 以 及 91.2%， 较 原 模 型 相 比 分 别提 升 
5.6%、2.2% 和 7.5%。 油 茶 炭 痊 病 有 着 病 斑 大 小 、 
形态 各 异 的 特点 ，Swin-Transformer 凭借 自 注 意 力 
机 制 对 全 局 特征 信息 有 更 强 的 提取 能 力 ， 能 兼顾 全 
局 和 局 部 的 特征 信息 ， 表 现 更 优 。 模 型 2 在 模型 1 
基础 上 又 引入 了 BiFPN, mAP,,, mAP,, 和 mAR 为 
86.5% 、78.1% 和 91.3% ， 与 模型 1 相 比 分 别 下 降 了 
0.2%、 提 升 0.1% 以 及 提升 0.1%。 其 中 mAP;; 略 有 
下 降 ， 这 可 能 由 于 mAP;; 主 要 关注 IoU BYE 0.75 
时 的 性 能 ， 这 是 一 个 相对 较 高 的 阔 值 ， 要 求 预测 框 
与 真实 框 之 间 有 很 高 的 重 亚 度 。BiFPN 更 注重 多 尺 
度 特征 的 融合 ， 但 在 某 些 情况 下 可 能 没有 FPN 那 么 
精确 地 在 高 IoU 阅 值 下 匹配 目标 。 因 此 ，mAP;, 会 
略 有 下 降 。 而 mAP, 则 考虑 了 多 个 IoU BME, BASE 
均 精 确 率 ， 包 括 一 些 较 低 的 阔 值 ， 由 于 双向 路 径 的 
BiFPN 增 进 了 不 同 层级 间 的 特征 融合 ， 使 得 更 多 的 
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特征 信息 得 以 保留 ， 因 此 整体 性 能 会 因 BiFPN 的 特 
征 融合 能 力 而 提升 。 模 型 3 在 模型 2 基础 上 使 用 了 
HardSwish 激活 函数 ， 其 mAP,。 mAP。 和 mAR 分 
别 为 86.8%、78.3% 和 91.6%， 与 模型 2 相 比 分 别提 
升 0.3%、0.2% 和 0.3%。HardSwish 可 以 增强 网 络 非 
线性 能 力 且 具有 更 好 的 鲁 棒 性 ， 提 高 了 神经 网 络 的 
表达 能 力 ， 有 效 缓解 ReLu 神 经 元 坏死 的 问题 。Ca- 
mellia-YOLACT 模型 与 原 模 型 相 比 mAP., tE Fh 
5.7%、mAP, 提 升 了 2.5%，mAR 提升 了 7.9%， 结 
果 表 明 改 进 方案 具有 有 效 性 。 


2.4 与 其 他 分 割 方法 对 比 


为 进一步 验证 Camellia-YOLACT 模型 的 检测 
性 能 ， 选 取 常 用 的 实例 分 割 模型 Mask R-CNN 以 及 
SOLO ™! 进行 比较 。Mask R-CNN 与 SOLO 使 用 与 
上 述 相同 数据 集 ， 训 练 至 收敛 。 图 8 为 不 同 算法 分 
割 测试 效果 ， 表 3 为 对 比 实验 结果 。 


a. 原 图 


b. Camelia-YOLACT c. Mask R-CNN 
图 8 不 同 算法 对 油茶 炭 盖 病 分 割 效果 


Fig.8 Effectiveness of different algorithms for segmentation of 


d. SOLO 


Camellia oleifera leaf anthracnose 
RI 不 同 算法 的 油茶 炭 关 病 分 割 效果 对 比 实验 
Table 3 Comparative experiment on the segmentation effect of 


different algorithms for Camellia oleifera leaf anthracnose 


模型 mAP,/% mAP„/% mAR/% td/ms 
YOLACT 81.1 75.8 83.7 46.85 
Mask R-CNN 90.4 81.5 92.3 168.16 
SOLO 87.1 77.8 90.4 75.73 
Camellia-YOLACT 86.8 78.3 91.6 53.50 


如 表 3 所 示 ，Camellia-YOLACT 在 精度 方面 表 
现 出 优 于 原 模 型 的 性 能 ， 虽 然 由 于 特征 提取 主干 网 
络 的 优化 导致 参数 量 的 提升 ， 使 得 检测 时 间 略 有 增 
加 ,但 这 并 未 影响 模型 在 实时 性 方面 的 优势 。 对 比 
同 为 单 阶段 实例 分 割 模型 的 SOLO，mAP;; 指 标 降 
低 0.3%，mAP, 提 高 0.5%，mAR 则 领先 1.2%， 检 
测 时 间 提 升 22.23 ms。 此 外 ， 与 精度 高 但 推理 速度 
较 慢 的 Mask R-CNN 相 比 ，Camellia-YOLACT 检 测 
速度 提升 了 2 倍 ， 确 保 了 油茶 叶 部 痰 着 病 分 割 速度 
的 实时 性 要 求 。 

具体 来 说 ， 实 时 性 高 的 优点 使 得 Camellia- 
YOLACT 能够 在 茶园 中 实现 快速 、 准 确 的 病 斑 分 
制 。 茶 园 中 的 环境 复杂 多 变 ， 油 茶叶 片 的 病害 症状 
也 可 能 多 种 多 样 ， 因 此 需要 一 个 能 够 快速 响应 的 模 
型 。Camellia-YOLACT 的 高 实时 性 能 够 满足 这 一 需 
求 ， 使 得 农民 或 管理 人 员 能 够 实时 获取 信息 ， 并 采 
取 相 应 的 防治 措施 ， 从 而 有 效 控制 病害 的 扩散 ， 保 
障 油茶 树 的 健康 生长 。 
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为 验证 所 提出 的 Camellia-YOLACT 模 型 在 自 
然 环境 下 对 油茶 炭 痊 病 严重 程度 分 级 的 效果 ， 于 
2023 年 11 月 22 在 江西 农业 大 学 油茶 种 植 基地 进行 
室外 实验 ， 如 图 9 所 示 ， 分 别 使 用 便携 式 计 算 机 和 
Intel RealSense D455 视觉 相机 作为 上 位 机 和 图 像 采 
集 设 备 ， 对 油茶 炭 痊 病 严重 程度 进行 分 级 实验 。 

选取 36 个 不 同 程度 的 油茶 炭 痊 病 叶片 ， 保 留 
叶片 样本 图 像 进 行人 工 像素 标注 并 计算 K 值 ， 对 比 
模型 预测 结果 与 人 工分 级 的 结果 ， 实 验 结果 如 表 4 
所 示 ， 可 知 本 研究 所 提出 的 Camellia-YOLACT 模 
型 对 油茶 炭 痊 病 严 重 程度 的 分 级 结果 良好 ， 正 确 分 
级 个 数 34 个 ， 分 级 正确 率 为 94.4%， KK 值 平均 绝对 
误差 为 1.09%。 分 级 有 误 的 几 组 实验 ， 通 过 分 析 图 
像 ， 发 现 图 像 中 均 存在 多 个 大 小 各 异 的 病 斑 ， 其 原 
因 是 分 割 的 掩 膜 边 缘 不 够 精准 ， 导 致 误差 增 大 ,在 
未 来 的 研究 中 模型 还 需 进一步 优化 。 
3 结 论 

为 克服 传统 人 工 判 别 油茶 炭 痊 病 严重 程度 的 局 
限 性 ， 通 过 引入 智能 化 的 分 级 技术 ， 提 高 病害 评估 
的 准确 性 和 效率 ， 本 研究 提出 了 一 种 基于 改进 
YOLACT 的 分 割 模 型 Camellia-YOLACT， 该 模型 
能 够 精准 分 割 病 斑 进而 实现 对 油茶 炭 痊 病 的 严重 程 
度 自动 分 级 。 主 要 结论 如 下 。 

1) 在 YOLACT 的 特征 提取 主干 网 络 部 分 引入 
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a. 实验 设 备 


b. 实验 效果 
图 9 油茶 叶片 炭 盖 病 严重 程度 分 级 实验 


Fig.9 Camellia oleifera leaf anthracnose injection severity 


grading experiment 


Swin-Transformer。 使 用 BiFPN 替换 了 原始 的 FPN， 


双向 特征 融合 通路 使 得 不 同 尺 度 的 特征 信息 能 够 更 
好 地 融合 和 利用 ， 提 升 了 模型 的 特征 融合 能 力 。 
HardSwish 的 使 用 增强 了 模型 的 非 线 性 表达 能 
经 实验 表明 ，Camellia-YOLACT 模型 mAP,。 为 
86.8% ， 较 原 模 型 提升 了 5.7%; mAP ,为 78.3%， 提 
升 了 2.5%; mAR 为 91.6%， 提升 了 7.9%。 对 比 其 
他 分 割 模型 ，Camellia-YOLACT 模 型 在 精度 和 速度 
方面 综合 表现 更 优 。 

2) 通过 Camellia-YOLACT 模 型 分 割 病 斑 区 域 
和 叶片 区 域 , 计算 病 斑 区 域 面积 除 以 叶片 面积 得 到 
病害 严重 程度 K。 经 实验 表明 ， 该 方法 分 级 正确 率 
为 94.4%，K 值 的 平均 绝对 误差 为 1.09%。 能 够 有 
效 完成 自然 环境 下 油茶 炭 痊 病 的 严重 程度 分 级 。 

尽管 本 算法 在 综合 性 能 体现 出 一 定 优势 ， 但 在 
某 些 特定 场景 下 ， 其 准确 性 和 稳定 性 仍 有 待 提升 。 
例如 ， 当 叶片 上 小 尺寸 病 斑 较 多 时 ， 病 斑 分 割 的 精 
度 会 降低 。 后 续 可 增加 训练 集中 小 目标 病 斑 样本 的 
数量 ， 进 一 步 提高 分 割 精 度 。 在 室外 实验 中 遇 到 叶 
片 有 部 分 重 县 遮挡 时 ， 分 割 效果 也 会 受到 影响 ， 未 
来 研究 需 进一步 考虑 油茶 炭 痊 病害 叶片 有 遮挡 时 的 
分 割 。 考 虑 检测 的 便捷 性 ， 后 续 可 将 Camellia- 
YOLACT 油 茶叶 部 妖冶 病害 检测 模型 植 人 能 入 式 系 


表 4 Camellia-YOLACT 算 法 油茶 炭 关 病 分 级 实验 
Table 4 Experimental classification of Camellia oleifera anthracnose by Camellia-YOLACT method 


je 真实 值 预测 值 开 绝 对 误 a8 真实 值 预测 值 K 44x} ie 
K/% 等 级 K/% 等 级 ” 差 /% K/% 等 级 K/% 等 级 FEI To 
1 58.31 3 57.28 3 1.03 | 19 80.68 4 pl 4 3.57 
2 43.14 2 43.05 2 0.09 | 20 23.92 1 21.31 1 2.61 
3 0.00 0 0.00 0 0.00 | 21 6.26 1 6.24 1 0.02 
4 7.32 1 6.84 1 0.48 | 22 16.55 1 13.69 1 2.86 
5 26.08 2 24.56 1 1.52 | 23 22.32 1 20.28 1 2.04 
6 8.54 1 8.03 1 0.51 | 24 7.83 1 7.04 1 0.79 
7 63.88 3 63.03 3 0.85 | 25 21.80 1 21.50 1 0.30 
8 10.39 1 9.34 1 1.05 | 26 0.00 0 0.00 0 0.00 
9 52.65 3 49.12 2 3.53 | 27 8.18 1 7.67 1 0.51 
10 76.44 4 75.34 4 1.10 | 28 12.97 1 10.95 1 2.02 
11 53.34 3 53.26 3 0.08 | 29 19.50 1 18.38 1 1.12 
12 0.00 0 0.00 0 0.00 | 30 13.77 1 13.55 1 0.22 
13 0.00 0 0.00 0 0.00 | 31 28.68 2 27.64 2 1.04 
14 12.19 1 11.29 1 0.90 | 32 7.21 1 4.50 1 2.71 
15 18.18 1 17.99 1 0.20 | 33 14.81 1 13.07 1 1.74 
16 47.29 2 46.20 2 1.09 | 34 5.04 1 4.72 1 0.32 
17 62.31 3 59.92 3 239 | 35 11.06 1 10.50 1 0.56 
18 36.39 2 35.86 2 0.53 | 36 18.22 1 16.85 1 1.37 


TE: KK 值 为 0.00， 代 表 没 有 检测 出 病 斑 ;等 级 为 0， 代 表 健 康 。 
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， 以 充分 发 挥 其 高 实时 性 的 优势 ， 


以 期 实现 油茶 叶片 图 像 数 据 的 实时 分 析 ， 病 害 监 测 


aay 


利益 


研究 成 果 有 关 的 和 


的 自动 化 ， 并 向 用 户 发 送 病 害 预警 信息 ， 最 终 达 到 
| 茶叶 部 炭 痊 病害 检测 的 管 


能 化 。 


冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公 
益 冲 突 。 
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Abstract: 

[Objective] Camellia oleifera is one of the four major woody oil plants in the world. Diseases is a significant factor leading to the de- 
cline in quality of Camellia oleifera and the financial loss of farmers. Among these diseases, anthracnose is a common and severe dis- 
ease in Camellia oleifera forests, directly impacting yields and production rates. Accurate disease assessment can improve the preven- 
tion and control efficiency and safeguarding the farmers' profit. In this study, an improved You Only Look at CoefficienTs (YOLACT) 
based method was proposed to realize automatic and efficient grading of the severity of Camellia oleifera leaf anthracnose. 

[Methods] High-resolution images of Camellia oleifera anthracnose leaves were collected using a smartphone at the National Camel- 
lia oleifera Seed Base of Jiangxi Academy of Forestry, and finally 975 valid images were retained after a rigorous screening process. 
Five data enhancement means were applied, and a data set of 5 850 images was constructed finally, which was divided into training, 
validation, and test sets in a ratio of 7:2:1. For model selection, the Camellia- YOLACT model was proposed based on the YOLACT 
instance segmentation model, and by introducing improvements such as Swin-Transformer, weighted bi-directional feature pyramid 
network, and HardSwish activation function. The Swin Transformer was utilized for feature extraction in the backbone network part of 
YOLACT, leveraging the global receptive field and shift window properties of the self-attention mechanism in the Transformer archi- 
tecture to enhance feature extraction capabilities. Additionally, a weighted bidirectional feature pyramid network was introduced to 
fuse feature information from different scales to improve the detection ability of the model for objects at different scales, thereby im- 
proving the detection accuracy. Furthermore, to increase the the model's robustness against the noise in the input data, the HardSwish 
activation function with stronger nonlinear capability was adopted to replace the ReLu activation function of the original model. Since 
images in natural environments usually have complex background and foreground information, the robustness of HardSwish helped 
the model better handling these situations and further improving the detection accuracy. With the above improvements, the Camellia- 
YOLACT model was constructed and experimentally validated by testing the Camellia oleifera anthracnose leaf image dataset. 

[Results and Discussions] A transfer learning approach was used for experimental validation on the Camellia oleifera anthracnose sever- 
ity grading dataset, and the results of the ablation experiments showed that the mAP,, of Camellia-YOLACT proposed in this study 
was 86.8%, mAP.,, was 78.3%, mAR was 91.6% which were 5.7%, 2.5% and 7.9% higher than YOLACT model. In the comparison 
experiments, Camellia-YOLACT performed better than Segmenting Objects by Locations (SOLO) in terms of both accuracy and 
speed, and its detection speed was doubled compared to Mask R-CNN algorithm. Therefore, the Camellia-YOLACT algorithm was 


all 


suitable in Camellia oleifera gardens for anthracnose real-time segmentation. In order to verify the outdoors detection performance of 
Camellia-YOLACT model, 36 groups of Camellia oleifera anthracnose grading experiments were conducted. Experimental results 
showed that the grading correctness of Camellia oleifera anthracnose injection severity reached 94.4%, and the average absolute error 
of K-value was 1.09%. Therefore, the Camellia-YOLACT model proposed in this study has a better performance on the grading of the 
severity of Camellia oleifera anthracnose. 

[Conclusions] The Camellia- YOLACT model proposed got high accuracy in leaf and anthracnose segmentation of Camellia oleifera, 
on the basis of which it can realize automatic grading of the severity of Camellia oleifera anthracnose. This research could provide 
technical support for the precise control of Camellia oleifera diseases. 


Key words: Camellia oleifera; leaf disease; anthracnose; BiFPN; YOLACT; Transformer; deep learning 
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